Introdução a estatística espacial

Nesse curso você vai aprender a realizar análises espaciais com aplicações para a vigilância em saúde usando R. Em epidemiologia, a análise descritiva dos dados frequentemente se estrutura em torno de três elementos fundamentais: pessoa, tempo e lugar. O elemento “pessoa” diz respeito às características individuais dos afetados pelo evento de saúde, incluindo fatores como idade, sexo, raça/cor, entre outras. O elemento “tempo” considera o período em que o evento de saúde ocorre, já o elemento “lugar” refere-se à localização geográfica, como o surgimento de um caso de doença em uma área específica.

Compreender a distribuição espacial desses eventos é crucial, pois permite uma melhor compreensão dos fenômenos que se manifestam de maneiras distintas em diferentes locais. A análise espacial pode variar desde simples visualizações em mapas, que auxiliam na identificação de padrões geográficos, até a aplicação de métodos estatísticos mais avançados, que consideram a localização como um fator essencial na interpretação dos dados.

Ao longo de cinco módulos, você vai desde conhecer os conceitos-chave da análise espacial e sua origem, até ser capaz de realizar análises para os diferentes tipos de dados espaciais. Vamos começar?

Ao final deste curso, você será capaz de:

Ao final deste curso, você será capaz de:

  1. Compreender os conceitos-chave da análise espacial e sua origem histórica.
  2. Identificar quando utilizar métodos de análise espacial em saúde.
  3. Diferenciar os tipos de dados espaciais e suas aplicações.
  4. Entender e aplicar conceitos de dependência e autocorrelação espacial.
  5. Reconhecer a importância da estacionariedade, isotropia e anisotropia na análise espacial.
  6. Aplicar métodos de análise espacial para cada tipo de dado: pontuais, de área e de geoestatística.




Para acompanhar este curso de maneira mais fluida e proveitosa, é essencial que você tenha familiaridade com as ferramentas básicas da linguagem R e o RStudio, além de conhecimentos prévios sobre rotinas de análise e visualização de dados.

Se ainda não teve contato com esses tópicos, recomendamos que realize o curso “Análise de dados para a Vigilância em Saúde”. O material pode ser acessado clicando neste link. Nele, você encontrará códigos e orientações que facilitarão a construção de seus mapas e demais análises espaciais.

Essa leitura prévia ajudará a contextualizar os conceitos que abordaremos e permitirá um melhor aproveitamento das discussões e aplicações práticas.

Módulo 1 - Introdução a séries temporais

A “análise estatística espacial” é definida quando os dados estão espacialmente localizados e se considera explicitamente a importância de seu arranjo espacial na análise ou interpretação dos resultados (Bailey & Gatrell, 1995). Isso significa que, ao analisar dados como incidências de doenças, contaminações ambientais ou qualquer outro evento de saúde pública, deve-se levar em conta o local onde esses eventos ocorrem para identificar padrões, verificar a existência de agrupamentos e orientar intervenções mais eficazes.

A principal característica da análise estatística espacial é que a localização geográfica não é apenas um detalhe, mas um componente central da análise. Em outras palavras, a geografia dos dados é utilizada explicitamente na análise e na interpretação, oferecendo uma abordagem que os métodos estatísticos tradicionais não contemplam. Portanto, os profissionais que atuam na Vigilância em Saúde precisam avaliar se os eventos observados poderiam apresentar desfechos diferentes dependendo da localização em que ocorrem.

Neste curso, serão abordadas essencialmente as técnicas estatísticas de análise espacial. Quando nos referimos ao espaço, estamos tratando da representação digital de fenômenos que ocorrem em locais específicos, e não do espaço enquanto conceito abstrato da geografia. Além disso, diversas operações realizadas utilizando Sistemas de Informação Geográfica (SIG), também chamadas de análise espacial, não serão abordadas neste material.

Origem da Análise Estatística Espacial

O uso de dados espaciais para o mapeamento de doenças teve um grande marco na era moderna com o trabalho realizado por John Snow em 1854, no Reino Unido. Naquela época, Londres enfrentava um grave surto de cólera que estava causando muitas mortes. A teoria dominante sugeria que a doença se espalhava pelo ar contaminado, conhecida como teoria miasmática.

No entanto, John Snow suspeitava que a cólera era transmitida pela água contaminada. Para testar sua hipótese, ele mapeou cuidadosamente as residências das pessoas que faleceram devido à doença no bairro do Soho (Figura 1). Ao plotar os casos em um mapa, ele percebeu um padrão claro: a maioria das mortes estava concentrada ao redor da bomba de água localizada na Broad Street.

Figura 1: Mapeamento dos casos de cólera por John Snow em Londres, Reino Unido.

Figura 1: Mapeamento dos casos de cólera por John Snow em Londres, Reino Unido.

Fonte: SNOW, J. (1854). On the mode of communication of cholera. John Churchill.

Observando que as mortes diminuíam à medida que a distância das residências em relação à bomba aumentava, Snow concluiu que a água daquela bomba era a fonte de contaminação. Sua investigação levou as autoridades a removerem a alavanca da bomba, o que resultou em uma drástica redução nos casos de cólera na região (SNOW, 1854).

O trabalho de John Snow foi pioneiro ao utilizar a análise espacial para identificar a fonte de uma epidemia. Sua abordagem inovadora não só salvou vidas naquela ocasião, mas também estabeleceu fundamentos importantes para a epidemiologia moderna e para as técnicas de análise espacial utilizadas hoje na Vigilância em Saúde. Ele demonstrou que a localização geográfica dos casos pode revelar padrões cruciais para a compreensão e o controle de doenças.

Você sabia que o pacote cholera do R foi inspirado no surto de cólera em Londres em 1854? Este pacote oferece um conjunto de dados e funções que permitem:

  • Visualizar os dados históricos;

  • Analisar os padrões espaciais da hipótese do John Snow;

  • Ter um imersão utilizando dados de um estudo clássico.

# Para instalar o pacote no seu computador
install.packages("cholera")

# Para carregar o pacote
library(cholera)

# Para visualizar os dados
# Os comandos abaixo adicionam os dados ao ambiente de trabalho
head(fatalities)
head(pumps)

# Para visualizar o mapa
snowMap()

Este mapa exibe a distribuição das mortes por cólera (pequenos pontos cinzas) e a localização das bombas de água (triângulos azuis numerados). A visualização é baseada na análise de John Snow, que identificou a contaminação da água como a causa do surto. O comando snowMap() plota o mapa sobre uma malha de ruas da época.

Para saber mais sobre o pacote cholera, acesse o link.

Quando usar métodos de análise espacial?

Como mencionado anteriormente, a localização de onde ocorrem os fenômenos de saúde é de grande importância para a Vigilância e, dessa forma, tem implicações práticas. Para o desenvolvimento adequado das ações de vigilância, uma questão fundamental se apresenta, antes da aplicação de qualquer método estatístico:

A distribuição dos dados apresenta um algum tipo de padrão ou esses dados estão distribuídos de forma regular no espaço?

Vamos pensar em situações que envolvem como o nosso território expressa as desigualdades sociais, econômicas e ambientais e como a exposição a fatores de forma diferente agem sobre a saúde da população. A distribuição de recursos, a acessibilidade aos serviços de saúde, a infraestrutura urbana, entre outros fatores, são exemplos de como a localização geográfica pode influenciar a saúde da população. Portanto, a análise espacial é uma ferramenta essencial para identificar padrões de distribuição espacial, detectar áreas de risco e orientar ações de prevenção e controle de doenças.

Neste sentido, um conceito importante a ser considerado é a heterogeneidade espacial, que se refere ao fato de que a magnitude e a direção de um fenômeno de interesse podem variar no espaço. Em outras palavras, os eventos geralmente não estão distribuídos de forma uniforme e essa variabilidade espacial pode influenciar diretamente os resultados de uma análise.

Considere o seguinte: ao realizar uma análise espacial, você pode perceber que alguns casos podem estar relacionados. Por exemplo, se uma pessoa fica doente em um bairro, é possível que outras pessoas próximas também fiquem. Isso significa que os casos não são independentes entre si. Estamos, então, lidando com uma violação da suposição de independência ao não considerar o espaço nas análises.

Este entendimento da heterogeneidade e interdependência dos eventos é crucial para a eficácia das ações de saúde pública. No próximo tópico, serão apresentadas algumas das principais aplicações em saúde, destacando como essas ferramentas contribuem para o monitoramento e controle de doenças, além de outras áreas relevantes.

Tecnologias de Geoprocessamento

A utilização de técnicas de geoprocessamento é fundamental na epidemiologia, uma vez que permite uma visão abrangente da saúde dos indivíduos no contexto social, histórico, político, cultural e ambiental em que estão inseridos. Atualmente, existem vários softwares que apoiam as análises espaciais além do R, como o TabWin, o ArcGIS, o QGIS, o Geoda, o Google Maps e o Google Earth. Na prática da análise espacial, a escolha da ferramenta ideal vai depender do seu objetivo e da sua familiaridade com cada software.

Cada ferramenta oferece recursos únicos para apoiar as análises em saúde. O R, por exemplo, se destaca por sua flexibilidade e capacidade de integração com diversas bibliotecas específicas para análise espacial e, dessa forma, pode ser um auxílio para diversos softwares. Se você já tem afinidade com o R, pode aproveitar suas funcionalidades para complementar e agregar valor às suas análises.

O importante é usar a ferramenta que melhor se adapta ao seu perfil e às demandas da análise, garantindo eficiência e precisão no trabalho.

Principais conceitos e aplicações em Saúde

A análise espacial é uma ferramenta poderosa na Saúde Pública, especialmente na Vigilância em Saúde. Ela permite entender como eventos de saúde se distribuem geograficamente, possibilitando a identificação de áreas de risco e o planejamento de ações de prevenção e controle. Confira algumas aplicações:

  • Mapeamento de doenças: Avaliar a variação geográfica na ocorrência de doenças e identificar áreas com maior incidência, contaminações ambientais ou outros eventos de saúde. O mapeamento ajuda a direcionar recursos e implementar medidas preventivas e de controle de forma mais eficaz.

  • Detecção de clusters: Identificar agrupamentos de eventos em determinadas áreas e determinar a significância de um risco adicional nessas regiões. Esses clusters podem revelar a presença de fatores de risco locais, como agentes infecciosos, contaminação ambiental localizada ou efeitos colaterais de tratamentos.

  • Estudos ecológicos: Consistem basicamente em modelos de regressão que buscam explicar a variação na incidência de uma doença com base em outras variáveis, integrando aspectos ambientais, sociodemográficos e comportamentais.

  • Monitoramento ambiental: Estimar e acompanhar a distribuição espacial de fatores ambientais relevantes para a saúde, como poluentes químicos, insolação, vegetação e clima. Esses fatores podem influenciar a ocorrência de doenças, sendo fundamentais na avaliação dos riscos à saúde.

  • Planejamento de ações de saúde: Identificar padrões de distribuição espacial de equipamentos de saúde e orientar ações de prevenção e controle. Por exemplo, a localização de unidades de saúde, a distribuição de vacinas, e a implementação de campanhas de prevenção podem ser otimizadas com base nesses dados.

Para cada uma dessas aplicações, é fundamental utilizar dados que considerem a localização geográfica dos eventos, pois isso é essencial para a correta interpretação e análise dos resultados. A seguir, apresentaremos os principais tipos de dados espaciais.

Tipologia dos dados espaciais

Ao realizar uma análise espacial, o primeiro passo é compreender o tipo de dado com o qual estamos trabalhando. Os dados espaciais estão sempre associados a uma localização geográfica específica, identificada, por exemplo, por coordenadas de latitude e longitude. Dependendo do evento que se deseja analisar, esses dados podem ser de tipos diferentes.

Existem três tipos principais de dados espaciais, cada um adequado para situações específicas:

  • Dados de processos pontuais: Utilizados para analisar eventos que ocorrem em pontos específicos do espaço, como a localização exata de casos de uma doença em uma cidade ou pontos de depósito irregular de contaminantes. Essa localização é dada por coordenadas geográficas (latitude e longitude) ou coordenadas planas (x e y). É a forma mais simples de dado espacial e é frequentemente usada em estudos de saúde. São ideais para identificar padrões de distribuição, detectar agrupamentos e avaliar a dependência espacial.

  • Dados de área: Usados quando o espaço é dividido em regiões ou áreas (bairros, municípios, estados) e os dados são agregados a esses níveis. Exemplos incluem a incidência de doenças por região, densidade populacional em municípios e cobertura vegetal em biomas. Esses dados ajudam a mapear a distribuição espacial de fenômenos, identificar áreas de risco e analisar a associação entre variáveis.

  • Dados de geoestatística: Para situações onde os fenômenos são contínuos em um espaço, como a temperatura ou a poluição do ar. Nesse caso, as medições são realizadas em pontos amostrais e depois estimadas para áreas onde não houve coleta, sendo amplamente usados em modelos estatísticos de distribuição espacial.

O analista da vigilância em saúde se depara o tempo todo com a disponibilidade de dados para esses eventos. O acesso aos dados produzidos no nível local se dá às equipes de analistas deste nível. Mas, frequentemente, há a necessidade de integrar dados de outros setores (como os dados sobre internações). Fortalecer parcerias com outros setores e instituições é fundamental para a obtenção de dados de qualidade e para a realização de análises mais robustas.

Para cada tipo de dado, há métodos estatísticos diferentes para descrever ou analisar a distribuição espacial dos eventos. A seguir, o Quadro 1 apresentada exemplos de cada um desses tipos de dados e as técnicas de análise mais comuns para cada um deles.

Quadro 1. Exemplos de tipos de dados espaciais e técnicas de análise.

Tipo de dados Exemplo Técnica
Pontos Eventos localizados, como ocorrências de doenças. Os pontos podem representar a localização da residência dos casos. Identificação de clusters e dependência espacial.
Áreas Dados agregados a regiões, como dados censitários (população por setor censitário, percentual de casas com esgoto adequado, etc.). Exploração de correlação espacial e modelos de regressão espacial.
Geoestatística (amostras) Dados de estações meteorológicas, como chuva e temperatura. Interpolação espacial para estimar valores em locais não amostrados.

Agora vamos ilustrar os três principais tipos de dados espaciais que podem ser empregados na rotina da vigilância.

A Figura 2 apresenta a localização espacial de óbitos infantis em Porto Alegre, Rio Grande do Sul, em 1998. Perceba que são utilizados dados pontuais, mapeando individualmente os eventos e permitindo a visualização da distribuição geográfica dos óbitos infantis.

Figura 2: Exemplo de dados de pontos - Distribuição espacial de nascidos vivos e óbitos infantis em Porto Alegre, 1998.

Figura 2: Exemplo de dados de pontos - Distribuição espacial de nascidos vivos e óbitos infantis em Porto Alegre, 1998.

Fonte: CARVALHO, M. S.; SOUZA-SANTOS, R. Cadernos de Saúde Pública, 21(2):361-378, 2005.

A Figura 3 apresenta um exemplo de dados de área com o número de casos de microcefalia por 10 mil nascidos vivos por município no estado de Pernambuco de 2015 a 2017.

Figura 3: Exemplo de dados de área - Casos de microcefalia por 10 mil nascidos vivos por município, 2015-2017, Pernambuco.

Figura 3: Exemplo de dados de área - Casos de microcefalia por 10 mil nascidos vivos por município, 2015-2017, Pernambuco.

Fonte: FREITAS, L. P. et al. Trans R Soc Trop Med Hyg, 117(3):189-196, 2023.

Por fim, a Figura 4 ilustra o uso de dados de amostragem para geoestatística. Neste exemplo, os dados de chuva obtidos em estações meteorológicas no município do Rio de Janeiro (painel A) foram utilizados para estimar a precipitação de forma contínua em todo o território (painel B). No módulo 2 do curso vamos aprender mais sobre o método que aqui foi utilizado, a krigagem.

Figura 4: Exemplo de dados de geoestatística - Localização de estações meteorológicas onde os dados amostrais são coletados (A) e estimativa de precipitação de forma contínua no território (B), município do Rio de Janeiro.

Figura 4: Exemplo de dados de geoestatística - Localização de estações meteorológicas onde os dados amostrais são coletados (A) e estimativa de precipitação de forma contínua no território (B), município do Rio de Janeiro.

Esses exemplos demonstram a riqueza dos dados espaciais. A análise desses tipos de dados é essencial para a compreensão da distribuição das doenças e na formulação de políticas públicas mais eficazes para a prevenção e o controle de agravos à saúde.

Um artigo na área da saúde pública que explora e distingue claramente os três tipos principais de dados espaciais (dados de processos pontuais, dados de área e dados de geoestatística) é o artigo:

“CARVALHO, M. S; SOUZA-SANTOS, R. Análise de dados espaciais em saúde pública: métodos, problemas, perspectivas. Cadernos de Saúde Pública, 21(2): 361-378, 2005”. Disponível no link.

Este material pode ser uma excelente leitura complementar para quem deseja aprofundar-se na análise espacial aplicada à saúde pública.



Existem ainda outros tipos de dados espaciais, como, por exemplo, imagens de satélites (raster), redes e fluxos. Estes não serão abordados nesse curso. Eventualmente misturas de diferentes tipos de dados estão presentes em uma mesma análise. Em algumas situações pode-se converter o dado de um tipo para outro (troca de suporte).

Dependência ou autocorrelação espacial

A dependência espacial (ou autocorrelação espacial) é um conceito central na análise espacial, indicando que eventos ou observações em locais próximos tendem a ser mais semelhantes do que aqueles que estão distantes. Em outras palavras, a presença ou intensidade de um fenômeno em uma área pode influenciar a ocorrência do mesmo fenômeno em locais vizinhos.

Um marco para essa ideia foi a “Primeira Lei de Tobler”, formulada por Waldo Tobler (1970), que afirma: “Tudo está relacionado a tudo, mas coisas próximas estão mais relacionadas do que coisas distantes”. Essa lei destaca que os fenômenos geográficos raramente ocorrem de forma isolada; eles se interligam, e essa interconexão precisa ser considerada em análises e modelos estatísticos.

Como ressaltado por Cressie (1991), embora a hipótese de independência seja conveniente para a teoria estatística, os dados espaciais normalmente apresentam dependência em todas as direções, com a intensidade dessa relação diminuindo à medida que aumenta a distância entre as observações. Essa característica torna os modelos que incorporam dependência estatística mais realistas, embora também mais complexos.

A autocorrelação espacial pode ser avaliada de duas maneiras principais:

  • Global: Analisa a distribuição geral dos valores de uma variável em toda a área estudada para verificar se há um padrão de associação espacial ou se os dados estão distribuídos aleatoriamente. Índices como o de Moran global são frequentemente usados nessa abordagem.

  • Local: Foca em identificar padrões específicos em pequenas áreas, permitindo detectar agrupamentos ou clusters onde os fenômenos se concentram. Ferramentas como o índice de Moran local auxiliam na identificação dessas áreas críticas.

Uma das ferramentas para visualizar a autocorrelação espacial são os correlogramas, gráficos que mostram como a correlação varia em função da distância (ou lag) entre os pontos. Esses gráficos são bastante versáteis e podem ser aplicados a diversos tipos de dados, como contagens, presença/ausência, proporções, distâncias, direções e até séries temporais.

Compreender a dependência espacial é fundamental para interpretar corretamente os dados em saúde, pois ela revela não apenas onde os riscos estão concentrados, mas também como esses riscos se espalham e interagem no espaço geográfico. Agora, vamos aprofundar essa discussão explorando a autocorrelação espacial, que nos permite quantificar o grau de associação entre os valores de uma variável em diferentes localidades e identificar padrões que podem não ser evidentes apenas pela observação visual.

Estacionariedade espacial

A estacionariedade é um conceito fundamental na análise espacial pois permite inferir valores em locais não amostrados com base na variabilidade observada nas amostras disponíveis do local a ser analisado. Ou seja, um processo espacial é considerado estacionário quando suas propriedades estatísticas permanecem constantes ao longo do espaço. Isso significa que a média dos valores é uniforme em toda a área estudada e que a covariância entre quaisquer dois pontos depende apenas da distância que os separa, e não de sua localização específica.

A estacionariedade é uma hipótese importante para muitas técnicas de interpolação e modelagem espacial, como a krigagem, pois garante que as propriedades estatísticas do processo sejam uniformes em toda a área estudada.

Isotropia e Anisotropia

A isotropia é uma condição mais restritiva que a estacionariedade. Em um processo isotrópico, além da média constante, a covariância depende exclusivamente da distância entre os pontos, independentemente da direção. Isso implica que os padrões espaciais se repetem de maneira uniforme em todas as direções.

Em contraste, um processo é considerado anisotrópico quando a covariância varia não apenas com a distância, mas também com a direção. Fatores ambientais, topográficos ou influências de processos naturais (como ventos predominantes ou correntes de água) podem gerar essa variação direcional, resultando em padrões que diferem conforme o ângulo considerado.

Esses conceitos, embora mais técnicos, são fundamentais para a interpretação de padrões espaciais e a escolha de métodos de análise adequados. A estacionariedade, a isotropia e a anisotropia são pressupostos importantes em muitas técnicas de interpolação e modelagem espacial, e sua consideração é essencial para garantir a validade dos resultados obtidos.

Mas não se preocupe, estamos apresentando os conceitos que vamos aplicar de forma mais aprofundada em cada módulo do nosso curso.

Considerações finais

Em resumo, as análises espaciais aplicadas aos dados de vigilância em saúde são poderosas para identificar problemas em saúde pública e direcionar medidas de intervenção. Vimos que a estatística espacial teve seu início com John Snow durante uma epidemia de cólera em Londres. Também aprendemos sobre os tipos de dados espaciais e principais conceitos em análise espacial.

Nos próximos módulos, entraremos a fundo a cada um dos tipos de dados e as análises que podem ser realizadas para cada objetivo. Vamos lá?

Referências

• BAILEY, T. C. Interactive spatial data analysis. Harlow Essex, 1995.

• BIVAND, R. S.; PEBESMA, E. J.; GÓMEZ-RUBIO, V. Applied spatial data analysis with R. Springer Science & Business Media, 2013.

• CARVALHO, M. S.; SOUZA-SANTOS, R. Análise de dados espaciais em saúde pública: métodos, problemas, perspectivas. Cadernos de Saúde Pública, Rio de Janeiro, v. 21, n. 2, p. 361-378, mar./abr.

• CRESSIE, N. Statistics for spatial data. Wiley, 1991.

• FORTES, B. P. M. D.; VALENCIA, L. I. O.; RIBEIRO, S. V.; MEDRONHO, R. A. Modelagem geoestatística da infecção por Ascaris lumbricoides. Cadernos de Saúde Pública, Rio de Janeiro, v. 20, n. 3, p. 727-734, maio/jun.

• GETIS, A.; ORD, J. K. The analysis of spatial association by use of distance statistics. Geographical analysis, v. 24, n. 3, p. 189-206, 1992.

• MENDES, M. S.; OLIVEIRA, A. L. S.; PIMENTEL, L. M. L. M.; FIGUEIREDO, T. M. R. M.; SCHINDLER, H. C. Análise espacial da tuberculose em menores de 15 anos de idade e risco socioeconômico: um estudo ecológico na Paraíba, 2007-2016. Epidemiologia e Serviços de Saúde, Brasília, v. 30, n. 3, e20201038, 2021.

• SNOW, J. (1854). On the mode of communication of cholera. John Churchill.

• TOBLER, Waldo R. A computer movie simulating urban growth in the Detroit region. Economic geography, v. 46, n. sup1, p. 234-240, 1970.